Large language model scoring of medical student reflection essays: Accuracy and reproducibility of prompt-model variations
이 연구는 다양한 프롬프트 기법과 모델을 활용한 대규모 언어 모델이 의학 학생의 성찰 에세이를 채점할 때 인간 평가자와 거의 일치하는 높은 정확도와 재현성을 보였으며, 파인튜닝과 예시 포함 프롬프트가 정확도를 높이는 반면 비용 효율성은 평가 규모에 따라 달라진다는 것을 규명했습니다.